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Resumo — Objetivo: Apresentar um roteiro de script para usar o 
software RStudio para decomposição de séries temporais em estudos 
epidemiológicos utilizando a Linguagem R. Materiais e métodos: Os 
dados usados nesse estudo para demonstrar a aplicabilidade do 
ambiente R na análise e decomposição de série temporal foram extraídos 
do DATASUS, e composto por dados de mortalidade por doenças 
infecciosas no Brasil e na Região Norte, considerando óbitos por 
residência, no período de 1996 a 2019. Os dados foram analisados 
utilizando a Linguagem R por meio do software RStudio Versão 
2022.02.1. Resultados: As series temporais foram analisadas utilizando 
a linguagem R e decompostas em seus componentes de tendência, 
sazonalidade e ruídos. Os gráficos de sazonalidade foram isolados para 
compreensão da variação de comportamento da mortalidade por 
doenças infecciosas na Região Norte quando comparada aos dados do 
Brasil distribuída nos meses do ano. Conclusão: Com a utilização do 
RStudio foi possível analisar e decompor um grande volume de dados 
para construir uma série temporal de 25 anos, subdivididas em períodos 
mensais. Possibilitando a customização dos elementos gráficos e sua 
plotagem. 


I. | INTRODUÇÃO 


Série temporal é definida como uma coleção de dados 
quantitativos observados de forma ordenada em um 
determinado intervalo de tempo, analisados segundo sua 
distribuição no tempo !?. 


Também chamada de série histórica, em epidemiologia, 
possui a capacidade de monitorar indicadores de saúde e 
prever cenários em um contexto de saúde pública ?. Para tal, 
se utiliza de diversas técnicas de análise de séries temporais, 
partindo de dados passados com a finalidade de modelar 
eventos futuros, construindo uma função matemática para 
demonstrar a correlação entre o comportamento da variável 
e o tempo **. 


A modelagem de séries temporais amplia as 
possibilidades de intervenções em saúde a partir da 
identificação e compreensão do comportamento de 
determinados eventos no tempo, e de que forma esse 
comportamento impacta na população analisada º. 


Uma série temporal pode ser composta de tendência, 
ciclo, sazonalidade e um componente aleatório (ruídos), 
sendo a tendência o aumento ou diminuição da ocorrência 
ao longo do tempo por um período constante; a sazonalidade 
uma frequência fixa ancorada no tempo, que pode ser em 
intervalos mensais, trimestrais, semestrais ou anuais. O 
componente cíclico se diferencia da sazonalidade pelo seu 
caráter eventual e espaçado em relação ao tempo, e o 
componente aleatório representa influências não 
relacionadas aos outros três componentes *”. 


Assim, decompor uma série temporal significa separar a 
série temporal nesses componentes, permite-se uma análise 
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individualizada de cada um deles, ampliando a 
compreensão dos fenômenos ao longo do tempo e 
estimando o comportamento do evento em momentos 
futuros, a partir da sua tendência, variação sazonal ou 
cíclica, e dimensão do componente aleatório 12º. 


Há uma série de técnicas estatísticas disponíveis para 
análise de uma série temporal, e diversos pacotes de 
softwares estatísticos disponíveis no mercado para 
realização destas análises, entretanto, o alto custo de 
aquisição e complexidade dos parâmetros para execução se 
caracterizam como um obstáculo para estudantes e 
pesquisadores que almejem trabalhar com estudos 
ecológicos do tipo série temporal. Softwares estatísticos 
amplamente conhecidos, como IBMº SPSSº Statistics e o 
Minitabº Statistical Software, apresentam um alto custo de 
aquisição, que pode variar entre 1.188,00 dólares 
americanos (SPSS) e 1.610,00 dólares americanos 
(Minitab) para uma licença individual anual da versão 


básica, sem os módulos específicos para análise preditiva 
89 


Este artigo se propõe apresentar um roteiro de script para 
usar o software RStudio para decomposição de séries 
temporais em estudos epidemiológicos utilizando a 
Linguagem R. R é uma linguagem de programação multi- 
paradigma orientada a objetos, programação funcional, 
dinâmica, fracamente tipada, voltada à manipulação, análise 
e visualização de dados. O RStudio é um software livre de 
ambiente de desenvolvimento integrado para R. O RStudio 
é um ambiente de software livre e aberto de 
desenvolvimento integrado para R, para computação 
estatística e gráficos que fornece uma ampla variedade de 
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técnicas estatísticas, incluindo modelagem linear e não- 
linear, testes estatísticos clássicos, 
classificações, análise de séries temporais, entre outras 
Sendo a análise de series temporais o objeto de estudo desta 


agrupamentos, 
10 


pesquisa. 


I. METODOLOGIA 
Fonte dos dados 


Os dados usados nesse estudo para demonstrar a 
aplicabilidade do ambiente R na análise e decomposição de 
série temporal como exemplo, foram extraídos do 
DATASUS, utilizando do aplicativo TabNet, que é um 
tabulador genérico de domínio público que permite 
organizar dados de forma rápida, conforme a consulta que 
se deseja tabular. 


O banco de dados é composto por dados de mortalidade 
no Brasil e na Região Norte, considerando óbitos por 
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residência, no período de 1996 a 2019, que correspondiam 
ao capítulo do CID-10: “I. Algumas doenças infecciosas e 
parasitárias”. 


Os dados foram importados do aplicativo TabNet no 
formato “.csv” e foram copiados par uma página no Google 
Sheet, organizados em quatro colunas, a saber: coluna 1 — 
ano; coluna 2 — mês; coluna 3 — obito norte; coluna 4 — 
obito brasil. E novamente baixados no formato “.csv”. 


Análise dos dados 


Os dados foram analisados utilizando o RStudio Versão 
2022.02.1. Esse processo foi realizado utilizando cinco 
etapas dentro do ambiente do software. 


A figura 1 apresenta a interface do RStudio, onde A é a 
tela de scripts e arquivos, B é tela de objetos, história e 
ambiente, C é a tela do console R e D é a tela de árvore de 
pastas, janela de gráfico, pacotes, janela de ajuda, 
visualizador. 
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Fig.l - Interface do sofware RStudio. 


O script completo está disponibilizado em arquivo 
suplementar que pode ser arrastado para a janela do 
RStudio, ou as linhas de código podem ser carregadas linha 
por linha. 


HI. RESULTADOS 


Abaixo estão as etapas com seus respectivos comandos 
para serem inseridos no ambiente do RStudio. 


Etapa 1 — Preparação do banco de dados (Dataset) — 
Carregando dados no RStudio. 


Nesta etapa inicial, a planilha do Excel na extensão 
“csv” deve ser carregada no RStudio utilizando o comando: 


Mortalidade = read.csv (file.choose()) 


Ao executar o comando, uma guia do Explorador de 
Arquivos do Windows será aberta, na qual procura-se a 
pasta e o arquivo que deseja carregar no RStudio. 
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O termo “Mortalidade”, é o nome que foi atribuído ao 
banco de dados quando carregado no RStudio. Esse é um 
novo nome para o arquivo que será carregado, atribuído 
livremente pelo pesquisador. 


Utiliza-se “read.csv” se o banco de dados no Excel na 
extensão “.csv” apresentar como separador somente vírgula 
(“,”). Ou, utilize “read.csv2” se o banco de dados no Excel 
na extensão “.csv” apresentar como separador porto e 
vírgula (“;”). 


Etapa 2 — Recodificação e mudança dos títulos das 
colunas. 


Comando: 
obito 1 <- Mortalidade$obito brasil 
obito 2 <- MortalidadeSobito norte 


O comando para recodificar e mudar os títulos da coluna 
dentro do banco de dados “Mortalidade”. “obito 1”, é o 
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nome que foi atribuído ao título da coluna em substituição 
do título anterior da coluna “obito brasil” na planilha 
“Mortalidade”. “obito brasil”, era o nome original do título 
da coluna dentro do banco de dados de “Mortalidade”. 


Etapa 3 — Transformação dos dados em Série 
Temporal para o RStudio. 


Comando para transformar os dados de “Mortalidade” 
em Série Temporal para o RStudio: 


obito brasil.ts <- ts (obito 1, 
start = c(1996, 1), 
end = c(2019, 12), frequency=12) 


obito norte.ts <- ts (obito 2, 
start = c(1996, 1), 
end = c(2019, 12), frequency=12) 


O termo “obito brasil.ts”, foi atribuído à série temporal 
de acordo com cada variável escolhida dentro do banco de 
dados “Mortalidade”. “obito 1” é o nome da variável de 
referência para a criação da série temporal. “start = c(1996, 
1)” foi utilizado para determinar o início do período da série 
temporal, com ano e mês. “end = c(2019, 12), 
frequency=12)" utilizado para determinar o término do 
período da série temporal, com ano, mês e frequência. O 
ano, mês e frequência podem ser modificados de acordo 
com o que se está trabalhando na série temporal. 


Etapa 4 — Decomposição de Séries Temporais para o 
RStudio. 


Comando: 


decompose (obito brasil.ts)-> 


obito brasil decomposto 
decompose (obito norte.ts)-> obito norte decomposto 


“decompose ()” é a função para decompor a série 
temporal “obito brasil.ts”. “obito brasil decomposto”, é o 
nome que será atribuído a série temporal “obito brasil.ts” 


decomposta. 


Etapa 5 — Visualização dos Gráficos - Plotagem - 
Automática e Manual. 


A visualização do dos gráficos da decomposição da série 
temporal pode ser realizada de duas formas: por meio da 
plotagem automática ou por meio da plotagem manual. 


Para visualização por Plotagem Automática, o comando 
a ser utilizado é: 


plot(obito brasil decomposto) 
plot(obito norte decomposto) 


A plotagem automática criará quatro gráficos em uma 
única imagem: “Observado” (real), que é a série temporal, 
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e sua decomposição em “Tendência”, “Sazonalidade” e 
“Ruídos” (variações aleatórias). “plot()", é função utilizada 
para criar, de forma automática, gráfico de visualização da 
decomposição da série criada. “obito brasil decomposto”, 
é o nome da série temporal decomposta. 


A figura 2A apresenta os gráficos gerados utilizando o 
banco de dados de mortalidade por doenças infecciosas no 
Brasil, e a figura 2B apresenta as mesmas informações 
referente ao banco de dados de mortalidade por doenças 
infecciosas da Região Norte. 


Uma das desvantagens da plotagem automática é a 
inclusão automática de termos em inglês (observed, trend, 
seasonal, Randon, time, etc.) e a limitação de informações 
fornecidas pelo sistema. 


Na plotagem manual, é possível editar os eixos X e Y 
(tempo e valores), customizar títulos, linha de média, linhas 
de divisão sazonal, e decompor períodos específicos dentro 
da série temporal. Na plotagem manual serão criados três 
gráficos, sendo um a série temporal bruta, outro a tendência 
e o último a sazonalidade. 


Para visualização do gráfico de toda a série temporal 
bruta por plotagem manual dos dados de mortalidade por 
doenças infecciosas no Brasil, o comando a ser utilizado foi: 


plot.ts (obito brasil.ts, 
las = 1, 
xlim = c(1996, 2019), 
xlab = "Ano", adj=0.5 , 
ylab = "Frequência") 
abline (h = mean (obito_brasil.ts ), 
col = "green", lty = 2) 


mtext ("Número de Óbito por Ano - Brasil", adj 
=0) 


“plot.ts ()”, função utilizada para criar gráficos, de forma 
manual, de séries temporais. “obito brasilts” é a série 
temporal criada anteriormente. “las =”, ajusta a direção dos 
rótulos, para paralelos (=1) ou perpendiculares (=2) ao eixo. 
“xlim = ?, adiciona os limites do eixo “x”. “c(2012, 2019)”, 
igual a: c(limite inferior, limite superior). “xlab =”, título do 
eixo “x”. “adj=”, ajusta o alinhamento do texto: adj=0.5 
para alinhamento centralizado; adj=0 para alinhamento 
esquerdo/inferior; adj=1 para alinhamento superior/direito. 
“ylab =”, título do eixo “y”. Atribuição livremente pelo 
pesquisador. “abline ( )”, adiciona uma linha de referência 
em um gráfico. “h = mean”, faz a média dos dados, 
posicionando na linha das médias horizontalmente (h). 


Para plotar os gráficos da região Norte usou-se o mesmo 
comando, fazendo as devidas alterações. 
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Para visualização do gráfico de tendência por plotagem 
manual dos dados de mortalidade por doenças infecciosas 
no Brasil, o comando utilizado foi: 


plot (obito brasil decompostoStrend, 
las = 1, 
xlim = c(1996, 2019), 
xlab = "Ano", adj=0.5, 
ylab = "Frequência”) 
abline (h=mean(obito brasil.ts), 
col = "green", lty = 2) 
text (1996 , mean(obito_brasil.ts), 
"Média de óbito por Mês", adj = 0)+2 
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mtext ("Tendência - Brasil", adj = 0) 


“obito brasil decompostoStrend,”, dados já 
decompostos anteriormente, especificando somente a 
tendência (trend). “text ()” adiciona um texto. “1996” é a 
posição com referência ao eixo “x” onde o texto será 
inserido na linha da média. “mean(obito brasil.ts),”, 
apresenta a média da série temporal “obito brasil.ts”. 
"Média de óbito por Mês”, texto que aparecerá na linha da 


média. “+2”, posição do texto em relação a linha da média. 


Para plotar os gráficos da região Norte usou-se o mesmo 
comando, fazendo as devidas alterações. 
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Fig. 2 — Gráficos de séries temporais de mortalidade por doenças infecciosas no Brasil (A) e na região Norte (B) no 
período de janeiro de 1996 a dezembro de 2020. 


Para visualização do gráfico de variação sazonal por 
plotagem manual dos dados de mortalidade por doenças 
infecciosas no Brasil, o comando utilizado foi: 


plot (obito brasil decomposto$seasonal, 


las = 1, 
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xlim = c(1996, 2019), 
xlab = "Ano”, 
ylab = "Incidência Relativa”, 


ylim = c(-400,300) ) 
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abline (h = 0, col = "green", lty = 2) períodos, no caso, todos os anos. “by = 2”: de dois em dois 
abline (v = seq (from = 1996, to = 2019, by = períodos, no caso, de 2 em 2 anos. 

1), Para plotar os gráficos da região Norte usou-se o mesmo 
col = 'tomato!, lty = 4) comando, fazendo as devidas alterações. 


A figura 3A apresenta os gráficos gerados por plotagem 
manual utilizando o banco de dados de mortalidade por 
doenças infecciosas no Brasil, e a figura 3B apresenta as 
mesmas informações referente ao banco de dados de 
mortalidade por doenças infecciosas da Região Norte. 


mtext ("Seasonal variation”, adj = 0) 


“y =”, adiciona linhas verticais na função “abline( )”. 
“from = 1996, to = 2019”, intervalo dos períodos em que 
cada linha vertical será adicionada. “by =”, define de 
quantos períodos deve aparecer alinha. “by = 1”: todos os 
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Fig.3 — Gráficos de séries temporais de mortalidade por doenças infecciosas no Brasil (A) e na região Norte (B) no 
período de janeiro de 1996 a dezembro de 2020. 


2 


Ao isolar os gráficos de sazonalidade, é possível doenças infecciosas na Região Norte quando comparada aos 
perceber a variação de comportamento da mortalidade por dados do Brasil como um todo. A visualização gráfica dos 
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dados é mais informativa e mais fácil de entender do que se 
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composta apenas por números brutos, como demonstrado na 


as informações fossem apresentadas em uma tabela figura 4. 
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Figura 4 — Variações sazonais de mortalidade por doenças infecciosas no Brasil e na Região Norte, no período de 
janeiro de 1996 a dezembro de 2020. 


IV. DISCUSSÃO 


A análise de séries temporais em epidemiologia almeja, 
através da modelagem do fenômeno, compreender o 
comportamento deste fenômeno ao longo do tempo, fazer 
estimativas e avaliar os fatores que influenciam no 


Nº Entre as 


comportamento do fenômeno técnicas 
estatísticas disponíveis para realização da análise de séries 
temporais, a decomposição de uma série temporal é um dos 
métodos mais simples para trabalhar dados brutos de 


determinado fenômeno !2, 


Estudos recentes demonstram a utilização do RStudio 
para análise de séries temporais, aplicando a decomposição 
para identificar tendência e sazonalidade em dados brutos 
ou padronizados 121314 A decomposição de 
temporais foi utilizada para trabalhar com dados 
secundários do sistema penitenciário brasileiro a fim de 
verificar o impacto e a tendência da COVID-19 entre 
indivíduos privados de liberdade (14); outro estudo, 
também sobre COVID-19, porém entre profissionais da 


séries 


saúde, a partir da decomposição da série temporal, 
identificou tendência de crescimento progressivo de casos e 
mortes em todas as macrorregiões do Brasil !2. Outro estudo 
realizado no Brasil buscou identificar a tendência da 
hanseníase em cenário de baixa endemicidade no estado de 
São Paulo, e através da decomposição da série temporal, 
observou uma tendência crescente de 1% ao mês "°. 


Este artigo usou como fonte de dados para demonstrar a 
decomposição de séries temporais os dados de mortalidade 
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por doenças infecciosas do Brasil e da região Norte nos 
últimos 25 anos., dentre os achados da decomposição das 
series temporais, vale ressaltar o componente sazonalidade 
que se destacou ao final da análise dos dados, observando- 
se uma maior ocorrência de óbitos na região norte nos meses 
de março, abril e maio, enquanto no Brasil como um todo, 
esse período se expande até os meses de agosto, entretanto, 
o objetivo deste estudo não é se aprofundar nos resultados 
obtidos da decomposição, e sim demonstrar a aplicabilidade 
do método utilizando um software livre e gratuito. 


Estudos mais aprofundados devem ser realizados para 
identificar uma possível causalidade para o aumento de 
Óbitos em determinados meses. Para tanto, a análise pode 
incluir outras variáveis, como dados socioeconômicos das 
populações estudadas, estações do ano, variação climática, 
nível de acesso aos serviços de saúde e saneamento básico, 
principais doenças endêmicas nas regiões e possível 
comportamento sazonal, entre outros 2. 


V. CONCLUSÃO 


Realizar modelagem de séries temporais possibilita 
entender o comportamento de determinados eventos no 
tempo e de que forma esse evento interfere na saúde da 
população em estudo. Essa ação pode ser simplificada com 
a utilização de um software gratuito, para decomposição de 
series temporais utilizando a Linguagem R. Resultados 
como apresentação gráfica dos componentes de uma série 
temporal, realizadas em poucas etapas mostra como é 
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relevante, a utilização do RStudio, para esse fim. Onde foi 
possível observar as tendências e variações sazonais nas 
séries propostas, gerando um produto direto e de fácil 
compreensão ao leitor e pesquisador. 


Com a utilização do RStudio foi possível analisar e 
decompor um grande volume de dados para construir uma 
série temporal de 25 anos, subdivididas em períodos 
mensais. Possibilitando a customização dos elementos 
gráficos e sua plotagem. 


A decomposição de series temporais em epidemiologia 
podem fornecer subsídios para elaboração de estratégias 
direcionadas e especificas para determinadas populações 
levando em consideração o comportamento dos fenômenos, 
sua tendência e possível sazonalidade, sendo uma 
ferramenta estratégica em saúde pública para a aumentar as 
alternativas para a tomada de decisões. 
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